无线AC热备常见故障

 

故障一、WS热备没有成功,网络环境:AC1--核心1---防火墙--核心2--AC2

1、故障现象

     WS热备没有成功,网络环境:AC1--核心1---防火墙--核心2--AC2

2、故障可能原因

    1)两台AClo0地址是否路由可达

    2)端口没有放通

3、处理步骤

   (1)首先检查两台ACloopback 0地址是否路由可达

   (2)检查两台AC的热备配置是否完全一样(主备AC context 编号、ap-groupap-config 配置是否一致)

   (3)检查AC之间设备是否有防火墙或者配置acl 热备需要开放这些端口:TCP 6425TCP 6435UDP 7425UDP 7435 

   (4)检查ap-config是否有配置ap-group 并且groupcontext里面

   (5AP/AC版本是否升级到最新且一致

4、故障解决

    确认拓扑情况,发现AC之间还有防火墙,没有放通TCP 6425TCP 6435UDP 7425UDP 7435  这些端口---放通后热备起来了

5、故障总结及注意      

    热备的很多故障都是主备AC配置不一样导致的,所以一定要仔细检查配置是否完全一模一样,推荐使用Beyond Compare 软件进行主备配置的核对。

   

故障二、热备环境下AC下部分ap无法正常在两台AC上上线    

1、故障现象    

    热备环境,个别AP无法在主备AC上线    

2、故障分析    

  (1)、检查主备AC配置包括ap-config run配置一致无误    

  (2)、查看版本一致均为B8P2版本5    

  (3)、查看AP到主备AC隧道正常通讯,ping大包正常    

  (4)、查看主备热备未起,但热备配置无误    

  (5)、检查主备AC上隧道地址正常ping大包正常通讯    

  (6)、怀疑中间链路过滤对应热备端口:UDP  6425 6435和TCP 7425 7435    

3、故障解决    

    查看客户使用loopback 1地址建立隧道,更改为loopback0建立隧道后问题解决。    

4、故障总结    

    热备情况建议是用loopback 0建立隧道,如果使用别的地址建立隧道需要进行以下配置:    

    如果做热备的时候,使用loopback地址做热备,但是AC和AP建立控制隧道的地址不是用lookback的地址,是用ac-c里面的ctr-ip自定义的,需要做如下修改:    

    Ruijie(config)# wlan hot-backup 1.1.1.1   这个地址一定要是lookback地址,用来建立热备的时候,AC的热备通信.    

    Ruijie(config-hotbackup�Cctx)# peer-ip [config-ip |real-ip | ipv4-address]  (AC和AP建立隧道的ac-c 里面的ctr-ip )    

    配置热备实例下 AP 连接的对端 AC 设备地址,缺省使用配置的 ip 地址作为对端 ac 设备地址。    

    用非lookback地址做热备:    

    Ruijie(config)#wlan hot-backup 192.168.120.100    

    Ruijie(config-hotbackup)#local-ip 192.168.120.110    


故障三  WS 无线热备,一部分AP在备AC上不上线

1、故障描述:    

    两台AC做热备,但是两台AC的AP在线数量不一致(主AC上AP在线73台,备AC上只在线38台),其中AP均为AP-3220或AP-530两种型号 。拓扑:

    AC=核心--接入交换机--AP,AP地址池网关在核心,两台AC旁挂核心,并且通过AP管理段地址互联

2、故障排查:    

1)、首先对比两台AC之间的配置,AC以及AP的版本等,发现基本一致,故排除因版本或配置导致该问题的发生;

2)、对比主备AClicense,均足够,并且查看热备状态UP,使用loopback0地址建立隧道;    

3)、测试故障AP能够正常ping通主AC隧道地址,但无法ping通备AC隧道地址,并且无法ping通备AC与核心互联地址(互联地址与AP管理同一vlan).查看ARP未学习到,但故障AP正常ping通网关,在网关上也能够ping通备AC互联地址。备AC上查看故障AP,其ARP未学习到,手动绑定测试故障依旧;    

4)、当前初步确定是链路不通问题导致。测试电脑接入交换机接入故障AP的端口测试电脑正常ping通。尝试AP上clear ap flash后故障依旧;    

5)、将问题AP和正常AP所在的交换机端口互换,问题AP仍不被备AC发现,正常AP正常工作;

6)、借用客户端剩下的一台AP(型号AP-530)作为测试,连接到POE交换机上,发现主备两台AC都能正常发现AP;

7)、为了进一步排查,将正常的AP和有问题的AP各拆一台,并互换,排查是否线路问题,但是正常的AP仍能正常发现,问题AP问题依旧;

8)、最后将问题AP直接连到POE交换机上,发现备AC仍旧无法发现该AP;

9)、当前研发给出抓包方案进行定位丢包点,建议客户在接入上联口抓包,和核心与备AC互联口抓包

3、故障进展:    

    故障APping正常主AC互联地址和网关能够ping通,并且在接入交换机能够查看到icmp报文;但故障APping故障备AC互联地址,无法ping通,在接入和核心上抓包均能够查看AP发送的免费ARP报文,但一直未有回应,当前怀疑是ARP请求未到达备AC控制面,进一步排查环境问题。 

    经过排查,定位是备ac跟思科的核心聚合口导致的故障,拔掉聚合线的一条后问题解决。思科核心是两台设备做的虚拟化,每台设备上拿一个口做聚合,将聚合口移到同一台设备上之后,开始ap正常,一段时间后又出现掉线问题,定位问题还是在聚合上。

4、故障解决:    

思科设备上聚合口里面一个配置了广播控制一个没配导致的故障,另外一个接口也配置后问题解决。    


故障四 终端连接无线出现连接异常,无法正常连接到对应的ssid

【故障现象】  

终端连接无线出现连接异常,无法正常连接到对应的ssid;  

【故障分析】  

1、到AC上通过show ap-config summary |  in xxx 确认此AP连接了多少人,发现该区域AP连接人数一直为0。  

 

 2、登录到ap上发现ap上只有用户发送认证请求的日志;  

 

3、查看异常AP的capwap数据通道报文信息:    

CRT01_M8600E-WS_Master#show cwk tunnel 379(379为隧道建立的index编号,show cap state | I 10.101.1.188)    

CRT01_M8600E-WS_Master#ter monitor    

 

 查看报文信息发现,AC在丢弃接收的报文,且丢弃的报文一直在增值,怀疑是否是主备配置导致的问题,检查主备配置发现配置不一致。  

 

【故障解决方案及总结】    

通过修正主备配置,并重启ap后,故障现象消失。    

在AC做热备是,需要特别注意主备配置的一致性,避免因为主备配置引起不必要的问题。    

通常情况下主备配置不一致,较为常见的故障有:    

(1)    AP在线数不一致,部分ap只在一台AC上上线;    

(2)    终端无法连接上无线,终端无法获取IP地址等;    

热备场景部署注意事项:    

热备部署,必须保证show ap-c run完全一致,show run除IP地址等特殊配置不一致外其他配置一致。     

 

故障五、巡检发现用户搜索不到无线信号  

1、故障现象

AP上线后,用户搜索不到无线信号 

2、网络环境

              简化:AP530-----POE交换机-------中间设备------WS卡

3、故障原因

             (1)主备AC配置不一致导致AP没有发出SSID,用户搜索不到无线信号 

4、处理步骤

(1)现场查看,发现AP信号灯正常

(2)telnet登陆主备AC,show ap-config summary | include Dong4Lou,分别查看AP状态,均正常

(3)telnet登陆AP,show dot11 mbssid 命令查看是否发出信号

            (4)Ruijie#show dot11 mbssid --->没有任何输出

            (5)telnet登陆主备AC,show run | begin ap-group Dong4Lou,分别查看东四楼的ap组是否配置

                                                     

                          

             (6)ap组均有配置,查看热备实例下是否添加对应的ap-group,show run | be wlan hot-backup

                      

                         

              (7)备AC上添加对应楼栋的ap-group后,AP重新关联上线,再登陆ap查看正常发出ssid,用户可以正常关联上线

                         

5、故障解决

        绑定对应楼栋的ap-group到热备实例下,AP重新关联上线后故障解决。

6、故障总结及注意点

       1)热备环境中必须强制要求主备配置一致,否则可能出现各种不可预知的问题;

       2)新增楼栋AP上线时,需规范配置。